Un Sistema de Extracción de Información Basado en Ontologías para Documentos en el Dominio de las Tecnologías de Información An Ontology-Based Information Extractor for Data-Rich Documents in the Information Technology Domain
نویسندگان
چکیده
This paper presents an information extraction method, suitable for data-rich documents, based on the knowledge represented in a domain ontology. The extractor combines a fuzzy string matcher and a word sense disambiguation (WSD) algorithm. The fuzzy string matcher finds mentions of terms combining character-level and token-level similarity measures dealing with non-standardized acronyms and inconsistent abbreviation styles. We propose a new character-level edit distance sensitive to prefixes called root distance and a token-level similarity algorithm for fuzzy acronym detection. Additionally, a WSD strategy using an ontology-based semantic relatedness measure is used to solve the inherent ambiguity of some entities. The WSD module finds a sense combination over all the document length optimizing the document semantic coherence. Our approach seems to be suitable to extract information from data-rich documents describing only one main object (i.e. product) by document. The results showed a precision of 78.9% with 99.5% recall using documents and an ontology related to laptop computers domain. Keywords—Knowledge Management, Information Extraction, Ontologies, Fuzzy String Searching, Word Sense Disambiguation, Semantic Relatedness
منابع مشابه
An Artificial Immune System Based on Information Theory for Keyword Extraction from Text Documents Sistema Inmune Artificial Basado en Teoría de la Información para la Extracción de Palabras Clave de Documentos de Texto
This paper presents a model for keyword extraction, extending the basic concepts commonly used in this task, in order to get a formal background that allows determining the importance of the keywords to the documents. The proposed model combines an artificial immune system with a mathematical background based on information theory; this new model has the advantage that does not need any domain ...
متن کاملSistema de Suscripción basado en XML para noticias digitales
Resumen. En este trabajo se plantea la problemática del seguimiento de un gran flujo de información entrante en una base documental, y la notificación de las novedades significativas a los usuarios de acuerdo a los perfiles definidos en sus suscripciones. Se propone un sistema de suscripción que utiliza un nuevo lenguaje basado en XML, que permite especificar consultas considerando la estructur...
متن کاملUsando Información De Segunda Mano En Un Sistema De Recomendación Colaborativo
La construcción de Sistemas de Recomendación Colaborativos ha recibido una considerable atención en los últimos años. El problema de estos sistemas se presenta en aquellos productos para los que tenemos poca información, ya que las predicciones suelen ser erroneas. En este trabajo presentamos una idea novedosa con la que vamos a obtener información de calidad a partir de las Bases de Datos, y q...
متن کاملComparación de Representaciones Interválicas Hansonianas para Recuperación de Información Musical
La similitud melódica es un concepto importante a considerar en la recuperación de información musical. Algunas de las posibles aplicaciones son sistemas basados en contenido desarrollados para administración de derechos de autor, detección de plagio de ideas ya expuestas por un artista en el pasado, la asistencia a la composición, etc. Existen varias técnicas expuestas en similitud melódica qu...
متن کاملSISFIUX: Adaptación de Feature-driven Development para el desarrollo de un sistema financiero para una universidad
Resumen. El papel de las tecnologías de información en la economía actual ha crecido en importancia. Así, las organizaciones desarrolladoras de software contemporáneas se enfrentan a ambientes de negocio altamente cambiantes y a un incremento tanto en la complejidad de las tecnologías utilizadas para el desarrollo de software de calidad así como en la resolución de los puntos de vista de los di...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2008